Stable Diffusion 3
https://gyazo.com/7e2796975bf3c23779bbf6f6ccea712f
@knshtyk: 性能評価のためStable Diffusion 3 Mediumを試してみた。「人間がどのような表現を好むか」は知っているのに、人間に対する理解をごっそり剥奪されたかような反発を感じる異常なモデルになってる。性的な表現を消し去るため美術の基礎たる人体への理解を喪失した結果、美が失われてしまった現代の説話 https://pbs.twimg.com/media/GSw5hv3acAEEjUJ.jpg https://pbs.twimg.com/media/GSw5ypDbkAATLSS.jpg
非商用のみ無料
@knshtyk: Stable Diffusion 3の無償利用は非商用目的に制限されていて、クリエーターはどこの位置付けなのかライセンスを確認しに行ったところ、20ドル/月のクリエーター&アーティスト向けライセンスが設定してあった。 収益基準も現代の事情をよくわかってる感があり好感が持てますね
https://pbs.twimg.com/media/GP4QtUJawAA3c6B.jpg
特徴として以下を挙げている
手や顔によくある不自然さを克服
タイポグラフィ
パフォーマンス改善
小さなデータセットから微妙なディテールを吸収することができるため、カスタマイズが楽
Claude 3 Opus.icon
Stability AIが公開したStable Diffusion 3の研究論文の要点は以下の通りです。
1. Stable Diffusion 3は、DALL·E 3、Midjourney v6、Ideogram v1などの最先端のテキスト画像生成システムを、タイポグラフィとプロンプトの忠実さの点で上回る。
2. 新しいマルチモーダル拡散トランスフォーマー (MMDiT) アーキテクチャは、画像と言語の表現に別々の重みセットを使用し、以前のバージョンと比較してテキストの理解力とスペル能力を向上。 textとimageのマルチモーダルなモデル
https://gyazo.com/afa39dace5bf11a2d310be5f9e2a6366
3. 再重み付け整流フロー手法により、サンプリングステップを減らすことが可能。
4. モデルのスケーリング傾向は飽和の兆候を示しておらず、今後もモデルのパフォーマンス向上が期待される。
5. 推論時に巨大なT5テキストエンコーダを取り除くことで、パフォーマンスをほとんど損なわずにメモリ要件を大幅に減らすことができる。
Stable Diffusion 3の最大モデル(80億パラメータ)が、消費者向けハードウェアであるRTX 4090の24GB VRAMに収まる
@jaguring1: 画像生成AI「Stable Diffusion 3」の論文が公開。視覚品質、指示に従う能力、テキスト描画の側面で他のモデルを凌駕(人の評価) rectified flowとMM-DiTのスケーリング研究。80億パラメータと計算回数5×10^22回まで飽和の兆候はなく、今後も性能が改善し続けるだろうとのこと
https://pbs.twimg.com/media/GH5CaLkbMAANT-e.jpg